点云注册旨在估计两点云扫描之间的几何变换,在该点对应的估计中是其成功的关键。除了先前通过手工制作或学习的几何特征寻求对应的方法外,最近的点云注册方法还尝试应用RGB-D数据以实现更准确的对应关系。但是,有效地融合了这两种独特方式的几何和视觉信息并不是微不足道的,尤其是对于注册问题而言。在这项工作中,我们提出了一种新的几何感知视觉特征提取器(给出),该提取器采用多尺度的本地线性转换来逐步融合这两种方式,其中深度数据的几何特征是几何依赖于几何依赖的卷积内核来转换RGB数据的视觉功能。最终的视觉几何特征位于典型的特征空间中,由于几何变化引起的视觉差异可缓解,因此可以实现更可靠的对应关系。提出的给出的模块可以很容易地插入最近的RGB-D点云注册框架中。在3D匹配和扫描仪上进行的广泛实验表明,即使没有信件或姿势监督,我们的方法即使在没有通信或姿势的情况下也优于最先进的点云注册方法。该代码可在以下网址获得:https://github.com/514DNA/llt。
translated by 谷歌翻译
具有复发性不对称耦合的神经网络对于了解如何在大脑中编码情节记忆很重要。在这里,我们将广泛的突触整合窗口的实验性观察整合到连续时间动力学中的序列检索模型中。理论上通过得出神经动力学中的雅可比矩阵的随机基质理论来研究具有非正态神经元相互作用的模型。这些光谱具有几个不同的特征,例如围绕原点的旋转对称性以及光谱边界内嵌套空隙的出现。因此,光谱密度高度不均匀地分布在复杂平面中。随机矩阵理论还可以预测过渡到混乱。特别是,混乱的边缘为记忆的顺序检索提供了计算益处。我们的工作提供了与任意时间延迟的时间隔离相关性的系统研究,因此可以激发对广泛记忆模型的未来研究,甚至可以激发生物学时间序列的大数据分析。
translated by 谷歌翻译
对于诊断各种疾病的诊断,对睡眠阶段进行分类至关重要。但是,现有的自动诊断方法主要采用“金标准”局部脑图(EEG)或医院中多摄像机仪(PSG)机器的其他单型模式传感信号,这些信号昂贵,导入且因此不适合保健点监测在家。为了在家中启用睡眠阶段监控,我们在本文中分析了红外视频与脑电图信号之间的关系,并提出了一项新任务:通过将有用的知识从EEG信号提炼到视觉视频,使用红外视频对睡眠阶段进行分类。为了为该应用程序建立可靠的跨模式基准,我们开发了一个新的数据集,称为通过红外视频和脑电图($ s^3ve $)看到您的睡眠阶段。 $ s^3ve $是一个大型数据集,包括用于睡眠阶段分类的同步红外视频和脑电图信号,包括105个主题和154,573个视频剪辑,长度超过1100小时。我们的贡献不仅限于数据集,而且还涉及一种新型的跨模式蒸馏基线模型,即结构感知的对比度蒸馏(SACD),以将脑电图知识提升为红外视频特征。 SACD在我们的$ S^3ve $和现有的跨模式蒸馏基准上都达到了最先进的表演。基准方法和基线方法都将被释放给社区。我们希望在睡眠阶段分类中提高更多注意力并促进更多的发展,更重要的是,从临床信号/媒体到传统媒体的跨模式蒸馏。
translated by 谷歌翻译
It has been witnessed that learned image compression has outperformed conventional image coding techniques and tends to be practical in industrial applications. One of the most critical issues that need to be considered is the non-deterministic calculation, which makes the probability prediction cross-platform inconsistent and frustrates successful decoding. We propose to solve this problem by introducing well-developed post-training quantization and making the model inference integer-arithmetic-only, which is much simpler than presently existing training and fine-tuning based approaches yet still keeps the superior rate-distortion performance of learned image compression. Based on that, we further improve the discretization of the entropy parameters and extend the deterministic inference to fit Gaussian mixture models. With our proposed methods, the current state-of-the-art image compression models can infer in a cross-platform consistent manner, which makes the further development and practice of learned image compression more promising.
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
零射门学习(ZSL)旨在通过将语义知识从看见课程转移到看不见者来识别新颖的课程。从不同类别之间共享的属性描述中学到的语义知识,该属性描述是用于本地化代表歧视区域特征的对象属性的强子指数,从而实现了显着的视觉语义交互。尽管基于注意的模型已经尝试学习单个图像中的这种区域特征,但是通常忽略视觉特征的可转换性和辨别性属性定位。在本文中,我们提出了一个属性引导的变压器网络,称为Transzero,以改进视觉特征,并在ZSL中鉴定鉴别的视觉嵌入表示。具体而言,Transzero采用特征增强编码器来缓解想象集和ZSL基准之间的交叉数据集偏压,并通过减少区域特征之间的缠结的相对几何关系来提高视觉特征的可转换性。为了学习地区增强的可视功能,Transzero使用视觉语义解码器来在语义属性信息的指导下本地化与给定图像中的每个属性最相关的图像区域。然后,用于在视觉语义嵌入网络中进行有效的视觉语义交互来实现局部增强的视觉特征和语义向量。广泛的实验表明,Transzero在三个ZSL基准上实现了新的最新状态。该代码可用于:\ url {https://github.com/shiming-chen/transzero}。
translated by 谷歌翻译
Neural networks are susceptible to data inference attacks such as the membership inference attack, the adversarial model inversion attack and the attribute inference attack, where the attacker could infer useful information such as the membership, the reconstruction or the sensitive attributes of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a method, namely PURIFIER, to defend against membership inference attacks. It transforms the confidence score vectors predicted by the target classifier and makes purified confidence scores indistinguishable in individual shape, statistical distribution and prediction label between members and non-members. The experimental results show that PURIFIER helps defend membership inference attacks with high effectiveness and efficiency, outperforming previous defense methods, and also incurs negligible utility loss. Besides, our further experiments show that PURIFIER is also effective in defending adversarial model inversion attacks and attribute inference attacks. For example, the inversion error is raised about 4+ times on the Facescrub530 classifier, and the attribute inference accuracy drops significantly when PURIFIER is deployed in our experiment.
translated by 谷歌翻译
With the advancement in computing and robotics, it is necessary to develop fluent and intuitive methods for interacting with digital systems, augmented/virtual reality (AR/VR) interfaces, and physical robotic systems. Hand motion recognition is widely used to enable these interactions. Hand configuration classification and MCP joint angle detection is important for a comprehensive reconstruction of hand motion. sEMG and other technologies have been used for the detection of hand motions. Forearm ultrasound images provide a musculoskeletal visualization that can be used to understand hand motion. Recent work has shown that these ultrasound images can be classified using machine learning to estimate discrete hand configurations. Estimating both hand configuration and MCP joint angles based on forearm ultrasound has not been addressed in the literature. In this paper, we propose a CNN based deep learning pipeline for predicting the MCP joint angles. The results for the hand configuration classification were compared by using different machine learning algorithms. SVC with different kernels, MLP, and the proposed CNN have been used to classify the ultrasound images into 11 hand configurations based on activities of daily living. Forearm ultrasound images were acquired from 6 subjects instructed to move their hands according to predefined hand configurations. Motion capture data was acquired to get the finger angles corresponding to the hand movements at different speeds. Average classification accuracy of 82.7% for the proposed CNN and over 80% for SVC for different kernels was observed on a subset of the dataset. An average RMSE of 7.35 degrees was obtained between the predicted and the true MCP joint angles. A low latency (6.25 - 9.1 Hz) pipeline has been proposed for estimating both MCP joint angles and hand configuration aimed at real-time control of human-machine interfaces.
translated by 谷歌翻译
速度控制预测是驾驶员行为分析中一个具有挑战性的问题,旨在预测驾驶员在控制车速(例如制动或加速度)中的未来行动。在本文中,我们尝试仅使用以自我为中心的视频数据来应对这一挑战,与使用第三人称视图数据或额外的车辆传感器数据(例如GPS或两者)的文献中的大多数作品相比。为此,我们提出了一个基于新型的图形卷积网络(GCN)网络,即Egospeed-net。我们的动机是,随着时间的推移,对象的位置变化可以为我们提供非常有用的线索,以预测未来的速度变化。我们首先使用完全连接的图形图将每个类的对象之间的空间关系建模,并在其上应用GCN进行特征提取。然后,我们利用一个长期的短期内存网络将每个类别的此类特征随着时间的流逝融合到矢量中,加入此类矢量并使用多层perceptron分类器预测速度控制动作。我们在本田研究所驾驶数据集上进行了广泛的实验,并证明了Egospeed-NET的出色性能。
translated by 谷歌翻译
我们提出了一种新的“泊松流”生成模型(PFGM),该模型将高维半球上的均匀分布映射到任何数据分布中。我们将数据点解释为$ z = 0 $超平面上的电荷,在增加额外尺寸$ z $的空间中,产生了高维电场(泊松方程解决方案的梯度)。我们证明,如果这些电荷沿电场线向上流动,则它们在$ z = 0 $平面中的初始分布将变成半径$ r $半球的分布,该分布在$ r \ to \ infty $限制中变成均匀。为了学习徒的转化,我们估计了增强空间中的归一化场。对于采样,我们设计了一种由物理上有意义的附加尺寸锚定的向后ode:当$ z $达到零时,样本击中了未加重的数据歧管。在实验上,PFGM在CIFAR-10上的正常流量模型中实现了当前的最新性能,其成立分数为9.68美元,而FID得分为2.48美元。它还可以与最先进的SDE方法相同,同时提供$ 10 \ times $至$ 20 \ $ 20 \ times $ $加速图像生成任务。此外,PFGM在较弱的网络体系结构上似乎更宽容估计误差,并且对Euler方法中的步骤大小稳健。该代码可在https://github.com/newbeeer/poisson_flow上找到。
translated by 谷歌翻译